24558
8526
Mi formato de datos usa \ 0 en lugar de una nueva línea. Así que el lector de línea de texto hadoop predeterminado no funciona.
¿Cómo puedo configurarlo para leer líneas separadas por caracteres especiales?
Si es imposible configurar LineReader, tal vez sea posible aplicar un procesador de flujo específico (tr "\ 0" "\ n") no estoy seguro de cómo hacerlo. 
Puede escribir su propia clase InputFormat que divida los datos en \ 0 en lugar de \ n. Para obtener un tutorial sobre cómo hacerlo, consulte aquí: http://developer.yahoo.com/hadoop/tutorial/module5.html#fileformat
La esencia de esto es que necesita subclasificar la clase InputFormat predeterminada, o cualquiera de sus subclases, y definir su propio RecordReader con reglas personalizadas. Para obtener más información al respecto, puede consultar la documentación de InputFormat.
|
Hay una propiedad de configuración "textinputformat.record.delimiter" para ese propósito. Puede cambiar el delimitador EOL predeterminado ("\ n") cambiando este valor de propiedad a "\ 0".
Para obtener más información, vaya aquí: http://amalgjose.wordpress.com/2013/05/27/custom-text-input-format-record-delimiter-for-hadoop
También hay una pregunta similar sobre cómo cambiar el delimitador predeterminado en Spark, que también puede ser útil: Configurar textinputformat.record.delimiter en Spark
|
¿Qué tal si el uso de un esquema TextDelimited funcionaría? http://docs.cascading.org/cascading/1.2/javadoc/cascading/scheme/TextDelimited.html
Eso evita tener que escribir su propio InputFormat, etc.
Ejemplos de texto delimitado están en
https://github.com/Cascading/Impatient/wiki/Part-2
|
Tu respuesta
StackExchange.ifUsing ("editor", function () {
StackExchange.using ("editor externo", función () {
StackExchange.using ("fragmentos", función () {
StackExchange.snippets.init ();
});
});
}, "fragmentos de código");
StackExchange.ready (function () {
var channelOptions = {
etiquetas: "" .split (""),
id: "1"
};
initTagRenderer ("". split (""), "" .split (""), channelOptions);
StackExchange.using ("editor externo", función () {
// Debe activar el editor después de los fragmentos, si los fragmentos están habilitados
if (StackExchange.settings.snippets.snippetsEnabled) {
StackExchange.using ("fragmentos", función () {
createEditor ();
});
}
else {
createEditor ();
}
});
function createEditor () {
StackExchange.prepareEditor ({
useStacksEditor: false,
heartbeatType: 'respuesta',
autoActivateHeartbeat: falso,
convertImagesToLinks: verdadero,
noModals: cierto,
showLowRepImageUploadWarning: true,
reputacionToPostImages: 10,
bindNavPrevention: verdadero,
sufijo: "",
imageUploader: {
brandingHtml: "Con tecnología \ u003ca href = \" https: //imgur.com/ \ "\ u003e \ u003csvg class = \" svg-icon \ "width = \" 50 \ "height = \" 18 \ "viewBox = \ "0 0 50 18 \" fill = \ "none \" xmlns = \ "http: //www.w3.org/2000/svg \" \ u003e \ u003cpath d = \ "M46.1709 9.17788C46.1709 8.26454 46.2665 7.94324 47.1084 7.58816C47.4091 7.46349 47.7169 7.36433 48.0099 7.26993C48.9099 6.97997 49.672 6.73443 49.672 5.93063C49.672 5.22043 48.9832 4.61182 48.1414 4.61182C47.4335 4.61182 46.725645.40531 43.1481 6.59048V11.9512C43.1481 13.2535 43.6264 13.8962 44.6595 13.8962C45.6924 13.8962 46.1709 13.2535 46.1709 11.9512V9.17788Z \ "/ \ u003e \ u003cpath d = \" M32.492 10.1419C32.492 14.648.942348 41.5985 12.6954 41.5985 10.1419V6.59049C41.5985 5.28821 41.1394 4.66232 40.1061 4.66232C39.0732 4.66232 38.5948 5.28821 38.5948 6.59049V9.60062C38.5948 10.8521 38.2696 11.5455 37.0451 11.5454.5C35.8 3520.49455C35.8 521 35.4954 9.60062V6.59049C35.4954 5.28821 35.0173 4.66232 34.0034 4.66232C32.9703 4.66232 32.492 5.28821 32.492 6.59049V10.1419Z \ "/ \ u003e \ u003cpath fill-rule = \" evenodd \ "clip-rule = \" evenodd \ "d = \ "M25.6622 17.6335C27.8049 17.6335 29.3739 16.9402 30.2537 15.6379C30.8468 14.7755 30.9615 13.5579 30.9615 11.9512V6.59049C30.9615 5.28821 30.4833 4.66231 29.4502 4.66231C28.9913 4.662025C 289.15527 .1369 4.56087 21.0134 6.57349 21.0134 9.27932C21.0134 11.9852 23.003 13.913 25.3754 13.913C26.5612 13.913 27.4607 13.4902 28.1109 12.6616C28.1109 12.7229 28.1161 12.7799 28.121 12.8346C834.232.283 28.121 12.8346C2834.125.283 28.121 12.8346C2834.1256.28 15.2321 24.1352 14.9821 23.5661 14.7787C23.176 14.6393 22.8472 14.5218 22.5437 14.5218C21.7977 14.5218 21.2429 15.0123 21.2429 15.6887C21.2429 16.7375 22.9072 17.6335 25.6622 17.6317.10.99 732.943C 27.2119 7.09766 28.0918 7.94324 28.0918 9.27932C28.0918 10.6321 27.2311 11.5116 26.1024 11.5116C24.9737 11.5116 24.1317 10.6491 24.1317 9.27932Z \ "/ \ u003e \ u003cpath d = \" M16.802802.86.9512C358. 19.8079 13.2535 19.8079 11.9512V8.12928C19.8079 5.82936 18.4879 4.62866 16.4027 4.62866C15.1594 4.62866 14.279 4.98375 13.3609 5.88013C12.653 5.05154 11.6581 4.62866 10.3573 4.62866C9.34336 4.62866 4,62866 780793 4,8993 5.00066 5.28821 5.00066 6.59049V11.9512C5.00066 13.2535 5.47873 13.8962 6.51203 13.8962C7.54479 13.8962 8.0232 13.2535 8.0232 11.9512V8.90741C8.0232 7.58817 8.44431 6.91179 9.53458 6.91179C10.593V13.8962 12.4044 13.8962C13.4375 13.8962 13.9157 13.2535 13.9157 11.9512V8.90741C13.9157 7.58817 14.3365 6.91179 15.4269 6.91179C16.4027 6.91179 16.8045 7.58817 16.8045 8.94108V11.9512Ze \ u0016 "/3c3path d = 6.5" /3c 5.28821 2.83866 4.66232 1.82471 4.66232C0.791758 4.66232 0.313354 5.28821 0.313354 6.59049V11.9512C0.313354 13.2535 0.791758 13.8962 1.82471 13.8962C2.85798 13.8962 3.31675 13.2535 3.31675 11.9512V6.590491Ce \ "/" / .843612 0.400291 0 1.1159 0 1.98861C0 2.87869 0.822846 3.57676 1.87209 3.57676C2.90056 3.57676 3.7234 2.87869 3.7234 1.98861C3.7234 1.1159 2.90056 0.400291 1.87209 0.400291Z \ "llenar = \" \ u003 \ u003c / sv3e "/ u003c / a \ u003e ",
contentPolicyHtml: "Contribuciones de usuario con licencia bajo \ u003ca href = \" https: //stackoverflow.com/help/licensing \ "\ u003ecc by-sa \ u003c / a \ u003e \ u003ca href = \" https://stackoverflow.com / legal / content-policy \ "\ u003e (política de contenido) \ u003c / a \ u003e",
allowUrls: verdadero
},
onDemand: verdadero,
discardSelector: ".discard-answer"
, initialShowMarkdownHelp: true, enableTables: true, enableSnippets: true
});
}
});
¡Gracias por contribuir con una respuesta a Stack Overflow!
Asegúrese de responder la pregunta. ¡Proporcione detalles y comparta su investigación!
Pero evita ...
Pedir ayuda, aclaraciones o responder a otras respuestas.
Hacer declaraciones basadas en opiniones; respaldarlos con referencias o experiencia personal.
Para obtener más información, consulte nuestros consejos sobre cómo escribir buenas respuestas.
Borrador guardado
Borrador descartado
Regístrate o inicia sesión
StackExchange.ready (function () {
StackExchange.helpers.onClickDraftSave ('# login-link');
});
Regístrese con Google
Registrarse usando Facebook
Regístrese usando correo electrónico y contraseña
Enviar
Publicar como invitado
Nombre
Email
Requerido, pero nunca mostrado
StackExchange.ready (
function () {
StackExchange.openid. carácter% 23new-answer ',' question_page ');
}
);
Publicar como invitado
Nombre
Email
Requerido, pero nunca mostrado
Publica tu respuesta
Descarte
Al hacer clic en "Publicar su respuesta", acepta nuestros términos de servicio, política de privacidad y política de cookies.
No es la respuesta que estás buscando? Lea otras preguntas en las etiquetas java hadoop mapreduce en cascada o formule su propia pregunta.